KiaDev Intelligence

#математические задачи23.04.2025

Революция в LLM: Самообучающиеся языковые модели без меток с помощью Test-Time Reinforcement Learning

Исследователи из Университета Цинхуа и Шанхайской лаборатории ИИ представили TTRL — новый метод, позволяющий большим языковым моделям улучшать свои результаты без размеченных данных, используя самооценку и обучение с подкреплением во время инференса.

ЧИТАТЬ →